@AudiovisualMaterial{SilvaJúnior:2020:AbInCi,
abstract = "A ci{\^e}ncia de dados {\'e} uma {\'a}rea de estudo
multidisciplinar que tem se tornado cada vez mais popular entre as
empresas de todo o planeta. Esta {\'a}rea tem como principal
objetivo a extra{\c{c}}{\~a}o de informa{\c{c}}{\~o}es
relevantes {\`a} partir de dados brutos, visando o melhor apoio
{\`a} tomada de decis{\~a}o. Esta ci{\^e}ncia lida com
t{\'e}cnicas estudadas h{\'a} d{\'e}cadas, que vem ganhando
destaque nos {\'u}ltimos anos em virtude do aumento da capacidade
computacional para o processamento de um grande volume de dados
que tem praticamente dobrado a cada ano. Estes dados s{\~a}o
obtidos a partir de diversas fontes, como bancos de dados
transacionais, redes sociais e dispositivos IOT, por exemplo.
Contudo, eles necessitam de alguma interven{\c{c}}{\~a}o
profissional para a detec{\c{c}}{\~a}o e a
elimina{\c{c}}{\~a}o de inconsist{\^e}ncias, de modo a
possibilitar as melhores e mais confi{\'a}veis an{\'a}lises.
Dada a popularidade da ci{\^e}ncia de dados entre as empresas e a
dificuldade de se formar um profissional com boa
capacita{\c{c}}{\~a}o nos pilares da ci{\^e}ncia da
computa{\c{c}}{\~a}o, estat{\'{\i}}stica / matem{\'a}tica e
conhecimento de neg{\'o}cio, a demanda pelo cientista de dados no
mercado de trabalho tem aumentado cada vez mais e, em
consequ{\^e}ncia, o interesse pelo ingresso nesta nova
profiss{\~a}o tem sido cada vez maior. O desafio do Titanic,
promovido pela Kaggle que {\'e} uma plataforma que hospeda
competi{\c{c}}{\~o}es de ci{\^e}ncia de dados, normalmente
{\'e} a porta de entrada dos aspirantes a cientista de dados para
o mundo da modelagem preditiva. No entanto, a falta dos recursos
adequados para lidar com a etapa de prepara{\c{c}}{\~a}o dos
dados acaba comprometendo o sucesso da an{\'a}lise. Portanto, a
proposta deste trabalho {\'e} uma abordagem por meio do conjunto
de dados do desafio do Titanic, ao qual ser{\'a} demonstrada a
etapa de tratamento e prepara{\c{c}}{\~a}o dos dados com a
utiliza{\c{c}}{\~a}o da linguagem de alto n{\'{\i}}vel R
apoiada pelo algoritmo KNN para a imputa{\c{c}}{\~a}o de dados
ausentes. Com a aplica{\c{c}}{\~a}o destas t{\'e}cnicas,
al{\'e}m da obten{\c{c}}{\~a}o de um conjunto de dados lapidado
para aplica{\c{c}}{\~a}o da an{\'a}lise preditiva requerida
pelo desafio, pode-se constatar que a abordagem {\'e} vi{\'a}vel
e plaus{\'{\i}}vel para ser aplicada em situa{\c{c}}{\~o}es do
mundo real, uma vez que os dados obtidos pelas empresas, mesmo em
contexto e dimens{\~o}es diferentes, muitas vezes s{\~a}o
apresentados de forma semelhante. Este estudo tem o prop{\'o}sito
de mostrar de maneira l{\'u}dica a import{\^a}ncia de uma boa
an{\'a}lise explorat{\'o}ria e do tratamento dos dados
levantados, podendo assim auxiliar a Academia em estudos futuros,
bem como orientar e incentivar os novos profissionais.",
affiliation = "{Universidade Federal do Paran{\'a} (UFPR)}",
author = "Silva J{\'u}nior, Antonio Carlos da",
city = "S{\~a}o Jos{\'e} dos Campos",
conferencename = "Workshop dos Cursos de Computa{\c{c}}{\~a}o Aplicada do INPE, 20
(WORCAP)",
date = "8-11 e 14-17 set. 2020",
language = "pt",
note = "{(15 min)}",
publisher = "Instituto Nacional de Pesquisas Espaciais (INPE)",
publisheraddress = "S{\~a}o Jos{\'e} dos Campos",
ibi = "8JMKD3MGPDW34P/43HC39E",
url = "http://urlib.net/ibi/8JMKD3MGPDW34P/43HC39E",
targetfile = "KNN e desafio do Titanic_ Abordagem introdut{\'o}ria da
ci{\^e}ncia de dados - Antonio C. da Silva Jr.mp4",
title = "O KNN e o desafio do Titatnic: uma abordagem introdut{\'o}ria da
ci{\^e}ncia de dados",
type = "tecnologia da informa{\c{c}}{\~a}o",
year = "2020",
urlaccessdate = "2024, Apr. 28"
}